Webkorpora in Computerlinguistik und Sprachforschung Web Corpora for Computational Linguistics and
نویسندگان
چکیده
Dieser Beitrag gibt einen Überblick über die laufenden Arbeiten im Projekt „Deutsches Referenzkorpus zur internetbasierten Kommunikation“ (DeRiK), in dem ein Korpus zur Sprachverwendung in der deutschsprachigen internetbasierten Kommunikation aufgebaut wird. Das Korpus ist als eine Zusatzkomponente zu den Korpora im BBAW-Projekt „Digitales Wörterbuch der deutschen Sprache“ (DWDS, http://www.dwds.de) konzipiert, die die geschriebene deutsche Sprache seit 1900 dokumentieren. Wir geben einen Überblick über die Motivation und Konzeption des Korpus sowie über die Projektziele (Abschnitte 2 und 3) und berichten über ausgewählte Anforderungen und Vorarbeiten im Zusammenhang mit der Korpuserstellung: a) die Integration des Korpus in die Korpusinfrastruktur des DWDS-Projekts (Abschnitt 4); b) die Entwicklung eines Schemas für die Repräsentation der strukturellen und linguistischen Besonderheiten von IBKKorpora auf der Basis der Repräsentationsformate der Text Encoding Initiative (TEI-P5) (Abschnitt 5). Der Artikel schließt mit einer Skizze der Anwendungsszenarien für das Korpus in der korpusgestützten Sprachanalyse und der gegenwartssprachlichen Lexikographie (Abschnitt 6) sowie mit einem Ausblick (Abschnitt 7).
منابع مشابه
Rezension von Roland Hausser: Foundations of Computational Linguistics. Man-Machine Communication in Natural Language
Das vorliegende Werk von Roland Hausser, „Foundations of Computational Linguistics“, ist, auch wenn es sich streckenweise einen solchen Anstrich gibt, weit mehr als ein bloßes Lehrbuch der Computerlinguistik. Das Buch erhebt vielmehr den Anspruch, Sprachtheorie zu bieten, ja darüber hinaus Kommunikationstheorie im Sinne einer Darstellung der theoretischen Grundlagen von MenschMaschine-Kommunika...
متن کاملParallel Corpora, Terminology Extraction und Machine Translation
In this paper we first give an overview of parallel corpus annotation, alignment and retrieval. We present standard annotation methods such as Part-of-Speech tagging, lemmatization and dependency parsing, but we also introduce language-specific methods, e.g. for dealing with split verbs or truncated compounds in German. We argue for careful sentence and word alignment for parallel corpora. And ...
متن کاملOrthographic Errors in Web Pages: Toward Cleaner Web Corpora
Since the Web by far represents the largest public repository of natural language texts, recent experiments, methods, and tools in the area of corpus linguistics often use the Web as a corpus. For applications where high accuracy is crucial, the problem has to be faced that a non-negligible number of orthographic and grammatical errors occur in Web documents. In this article we investigate the ...
متن کاملDie Document Suite XDOC: ein Fortschrittsbericht
Zusammenfassung: Die aktuellen Entwicklungen zur Aufbereitung von Dokumenten – z.B. für das Semantic Web – und der technologische Fortschritt erfordern einen schnellen und problembezogenen Zugriff auf Informationen in Dokumentbeständen. In diesem Beitrag wird der aktuelle Stand der Document Suite XDOC vorgestellt. XDOC nutzt Methoden der Computerlinguistik und der Wissensverarbeitung, um Voraus...
متن کاملDiTo - Ein Diagnostik-Werkzeug für die syntaktische Analyse
In this paper we present a testing tool for the diagnosis of errors in NLP Systems. We discuss briefly the relevance of testing tools for NLP Systems and advocate the idea of modular testing tools. liere we present an approach for the syntax component of NLP Systems. Our diagnostic tool for German syntax is an effort to construct a catalogue of syntactic data exemplifying the major syntactic pa...
متن کامل